81 research outputs found

    Framework para la construcción y despliegue de sistemas de procesamiento en tiempo real

    Get PDF
    Traballo Fin de Máster en Tecnoloxías de Análise de Datos Masivos: Big Data. Curso 2017-2018En los últimos años se han desarrollado numerosas tecnologías destinadas al procesamiento de datos masivos, muchas de ellas de código abierto y de uso libre. Estas plataformas se centran en la escalabilidad horizontal, lo que implica que para el procesamiento de una mayor cantidad de datos sin grandes distorsiones en el ritmo, no es necesario aumentar o actualizar los recursos de una máquina (escalabilidad vertical), sino que es su ficiente con añadir más nodos con similares características a un clúster. La proliferación de este tipo de tecnologías de código abierto han democratizado y condicionado el gran número de aplicaciones que hacen uso de estas plataformas en multitud de ámbitos, tanto profesionales como académicos. Centrándonos en los frameworks de procesamiento, nos encontramos con una importante limitación: los datos han de poder dividirse en grupos independientes, de tal modo que sea posible paralelizar el trabajo en diferentes máquinas aunque existan puntos de procesamiento secuencial. Existen dos grandes tipos de tecnologías de procesamiento de este tipo: procesamiento de lotes (batch processing) y procesamiento de flujos (stream processing). En el primer caso, los resultados finales se obtienen juntos al fi nalizar el procesamiento del lote de datos compuesto por una o más etapas. Para de finir el trabajo a realizar, se define una topología de procesamiento que indica el flujo de los datos a través de las distintas etapas. Cada nodo (físico o virtual) puede ejecutar una instancia de la topología (aislada del resto de instancias), repartiéndose los datos de forma equitativa entre las instancias existentes. En las tecnologías de procesamiento de flujos, las distintas etapas de una topología son independientes y no pertenecen a una instancia concreta. Por tanto, las distintas etapas pueden ser paralelizadas de forma individual sin aumentar el grado de paralelismo de toda la topología. Estas tecnologías son adecuadas para aplicaciones que obtienen información en tiempo real y deben dar una respuesta inmediata, ya que cuando un dato completa su camino a través de las distintas etapas, el resultado puede obtenerse de forma instantánea. Sin embargo, con el procesamiento de lotes los resultados se obtienen cuando un lote de datos es procesado por completo. Un caso de aplicación de procesamiento en tiempo real es el análisis de contenidos en redes sociales para la detección temprana de riesgos. Este será el objetivo principal de este proyecto

    Real-time focused extraction of social media users

    Get PDF
    In this paper, we explore a real-time automation challenge: the problem of focused extraction of Social Media users. This challenge can be seen as a special form of focused crawling where the main target is to detect users with certain patterns. Given a specific user profile, the task consists of rapidly ingesting Social Media data and early detecting target users. This is a real-time intelligent automation task that has numerous applications in domains such as safety, health or marketing. The volume and dynamics of Social Media contents demand efficient real-time solutions able to predict which users are worth to explore. To meet this aim, we propose and evaluate several methods that effectively allow us to harvest relevant users. Even with little contextual information (e.g., a single user submission), our methods quickly focus on the most promising users. We also developed a distributed microservice architecture that supports real-time parallel extraction of Social Media users. This modular architecture scales up in clusters of computers and it can be easily adapted for user extraction in multiple domains and Social Media sources. Our experiments suggest that some of the proposed prioritisation methods, which work with minimal user context, are effective at rapidly focusing on the most relevant users. These methods perform satisfactorily with huge volumes of users and interactions and lead to harvest ratios 2 to 9 times higher than those achieved by random prioritisationThis work was supported in part by the Ministerio de Ciencia e Innovación (MICINN) under Grant RTI2018-093336-B-C21 and Grant PLEC2021-007662; in part by Xunta de Galicia under Grant ED431G/08, Grant ED431G-2019/04, Grant ED431C 2018/19, and Grant ED431F 2020/08; and in part by the European Regional Development Fund (ERDF)S

    Ignis: An efficient and scalable multi-language Big Data framework

    Get PDF
    Most of the relevant Big Data processing frameworks (e.g., Apache Hadoop, Apache Spark) only support JVM (Java Virtual Machine) languages by default. In order to support non-JVM languages, subprocesses are created and connected to the framework using system pipes. With this technique, the impossibility of managing the data at thread level arises together with an important loss in the performance. To address this problem we introduce Ignis, a new Big Data framework that benefits from an elegant way to create multi-language executors managed through an RPC system. As a consequence, the new system is able to execute natively applications implemented using non-JVM languages. In addition, Ignis allows users to combine in the same application the benefits of implementing each computational task in the best suited programming language without additional overhead. The system runs completely inside Docker containers, isolating the execution environment from the physical machine. A comparison with Apache Spark shows the advantages of our proposal in terms of performance and scalabilityThis work has been supported by MICINN, Spain (RTI2018-093336-B-C21), Xunta de Galicia, Spain (ED431G/08 and ED431C-2018/19) and European Regional Development Fund (ERDF)S

    A Big Data Platform for Real Time Analysis of Signs of Depression in Social Media

    Get PDF
    In this paper we propose a scalable platform for real-time processing of Social Media data. The platform ingests huge amounts of contents, such as Social Media posts or comments, and can support Public Health surveillance tasks. The processing and analytical needs of multiple screening tasks can easily be handled by incorporating user-defined execution graphs. The design is modular and supports different processing elements, such as crawlers to extract relevant contents or classifiers to categorise Social Media. We describe here an implementation of a use case built on the platform that monitors Social Media users and detects early signs of depressionThis work was funded by FEDER/Ministerio de Ciencia, Innovación y Universidades—Agencia Estatal de Investigación/ Project (RTI2018-093336-B-C21). Our research also receives financial support from the Consellería de Educación, Universidade e Formación Profesional (accreditation 2019–2022 ED431G-2019/04, ED431C 2018/29, ED431C 2018/19) and the European Regional Development Fund (ERDF), which acknowledges the CiTIUS-Research Center in Intelligent Technologies of the University of Santiago de Compostela as a Research Center of the Galician University SystemS

    Los Barrios de Luna (León, España): un lugar de interés geológico y didáctico

    Get PDF
    p. 81-92En los alrededores de la localidad de Los Barrios de Luna (provincia de León, NW de España) aflora una sucesión muy completa de rocas sedimentarias de edad paleozoica. Esta serie geológica constituye un referente histórico para el estudio de la geología de la Zona Cantábrica y contiene elementos (diversas litologías, fósiles y estructuras sedimentarias) que hacen de ella una magnífica escuela para mostrar algunos aspectos del trabajo en Geología. Recientemente, una parte de esta serie geológica, constituida por cuatro formaciones de edad Cámbrico y Ordovícico, ha sido puesta en valor mediante el diseño y realización de una ruta guiada, un panel de sitio y un folleto explicativo.S

    Corales Tabulados del Devónico Inferior de Argentina y Bolivia: Estado de la cuestión

    Get PDF
    p. 143-148Los corales tabulados devónicos de Argentina y Bolivia, y muy especialmente los géneros Favosites y Pleurodictyum, han sido citados de forma reiterada en la literatura paleontológica. Estas atribuciones, a menudo muy antiguas, no pueden ser aceptadas sin un análisis detallado del material incluyendo, en el caso de Pleurodictyum, el examen de la cara proximal de la colonia. En los últimos años se han realizado varios estudios modernos de estos corales, con descripciones, figuraciones y discusiones que han permiti-do reconocer una fauna de tabulados más diversa y abundante de lo que sospechó en un principio. Este trabajo pretende dar a conocer el estado actual de conocimientos sobre estos corales, enfatizan-do las informaciones aportadas por su estudio e indicando los futuros trabajos que, sobre esta temática, convendría acometer.S

    Early risk detection of self-harm and depression severity using BERT-based transformers:iLab at CLEF eRisk 2020

    Get PDF
    This paper briefly describes our research groups’ efforts in tackling Task 1 (Early Detection of Signs of Self-Harm), and Task 2 (Measuring the Severity of the Signs of Depression) from the CLEF eRisk Track. Core to how we approached these problems was the use of BERT-based classifiers which were trained specifically for each task. Our results on both tasks indicate that this approach delivers high performance across a series of measures, particularly for Task 1, where our submissions obtained the best performance for precision, F1, latency-weighted F1 and ERDE at 5 and 50. This work suggests that BERT-based classifiers, when trained appropriately, can accurately infer which social media users are at risk of self-harming, with precision up to 91.3% for Task 1. Given these promising results, it will be interesting to further refine the training regime, classifier and early detection scoring mechanism, as well as apply the same approach to other related tasks (e.g., anorexia, depression, suicide)

    Early risk detection of self-harm and depression severity using BERT-based transformers : iLab at CLEF eRisk 2020

    Get PDF
    This paper briefly describes our research groups’ efforts in tackling Task 1 (Early Detection of Signs of Self-Harm), and Task 2 (Measuring the Severity of the Signs of Depression) from the CLEF eRisk Track. Core to how we approached these problems was the use of BERT-based classifiers which were trained specifically for each task. Our results on both tasks indicate that this approach delivers high performance across a series of measures, particularly for Task 1, where our submissions obtained the best performance for precision, F1, latency-weighted F1 and ERDE at 5 and 50. This work suggests that BERT-based classifiers, when trained appropriately, can accurately infer which social media users are at risk of self-harming, with precision up to 91.3% for Task 1. Given these promising results, it will be interesting to further refine the training regime, classifier and early detection scoring mechanism, as well as apply the same approach to other related tasks (e.g., anorexia, depression, suicide)

    La Cueva de Valdelajo (Sahelices de Sabero, León): una pequeña joya geológica en una comarca minera

    Get PDF
    p. 47-61En este trabajo se presenta la Cueva de Valdelajo, una cavidad de origen kárstico de reciente descubrimiento, situada en el municipio de Sabero (León, España), el cual tiene una fuerte tradición minera. Esta cavidad cuenta con una elevada diversidad de espeleotemas y un magnífico grado de conservación de los mismos, por lo que posee un potencial muy alto de cara a su explotación como reclamo turístico, a pesar de su reducido tamaño. Además, en esta comarca pueden visitarse numerosas infraestructuras derivadas de las antiguas explotaciones de carbón, así como un museo de la siderurgia. Por tanto, la Cueva de Valdelajo se presenta como un lugar de interés geológico que puede reforzar el alto valor del Patrimonio Geológico y Minero en esta zona.S
    corecore